library(readr)
library(tidyverse)
library(forcats)
library(plotly)
library(knitr, warn.conflicts = FALSE, quietly=TRUE)
library(RColorBrewer)
library(stringr)
library(dygraphs)
library(xts)
myPalette <- brewer.pal(10, "Paired")
vgsales <- read_csv("vgsales.csv")
Rows: 16598 Columns: 11
-- Column specification -------------------------------------------------------------------------------------
Delimiter: ","
chr (5): Name, Platform, Year, Genre, Publisher
dbl (6): Rank, NA_Sales, EU_Sales, JP_Sales, Other_Sales, Global_Sales
i Use `spec()` to retrieve the full column specification for this data.
i Specify the column types or set `show_col_types = FALSE` to quiet this message.
Das verwendete Dataset des Projekts: https://www.kaggle.com/datasets/gregorut/videogamesales
Dieses Dataset umfasst verschiedene Daten zu Videogamereleases und
Sales zwischen 1980 und 2016.
Ideen/Statements:
Bestimmte Entwickler/Publisher häufen sich (Nintendo/EA) Ältere
Plattformen/spiele haben mehr verkäufe bzw Wie hat sich die Anzahl der
verkäufe im laufe der jahre entwickelt? Genrenentwicklung über die Jahre
Welche Spiele/Publisher/Genres in welchen Teilen der welt sich häufen
(Nintendo in Asien, Shooter in US/EU) Gibt es Statistische zusammenhänge
zwischen einzelnen Faktoren e.g. Genre -> Sales Welche Jahre sind die
besten in der Anzahl der releasten games und hängt dies mit den Sales
zusammen? (je mehr Total Sales desto mehr Games verkaufen sich) Welche
Jahre sind die besten in Anzahl Sales pro game (neuer = besser?) Welche
Plattform ist die beste und unterscheidet sich diese nach Region? Gibt
es Unterschiede in den Regionen/hängt das mit der Anzahl der Einwohner
der Region zusammen? (Asia>US>EU)
Zuerst schauen wir und die Anzahl der Videospiele und die Anzahl der
Verkäufe im laufe der Jahre an.
Hierzu verwenden wir Liniendiagramme. Außerdem filtern wir alle
Datensätze in denen kein Jahr angegeben ist sowie Datensätze mit den
Jahren 2017 und 2020 um Fehlerhafte Daten und unvollständige Daten aus
der Liste zu entfernen.
Game Releases over the Years
Game Amount
grouped <- vgsales %>%
group_by(Year) %>%
dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Anzahl)
ax <- list(
title = "Year"
)
ay <- list(
title = "Amount"
)
filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>%
layout(title="Game Amount from 1980-2016",
xaxis = ax,
yaxis = ay
)
Game Sales
grouped <- vgsales %>%
group_by(Year) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = " Game Sales per Year (in mio)"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>%
layout(title="Game Sales from 1980-2016",
xaxis = ax,
yaxis = ay
)
Sales per Game
grouped <- vgsales %>%
group_by(Year) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = "Sales per Game"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>%
layout(title="Sales per Game from 1980-2016",
xaxis = ax,
yaxis = ay
)
Hier erkennen wir das 2008 und 2009 die Jahre waren in denen die
Meisten Games Releast wurden und diese auch die meisten Verkäufe haben.
Den größten per Game Verkaufswert gab es allerdings 1984,1985 und 1989.
Neuere spiele hingegen verkaufen sich durchschnittlich schlechter was
durch das größere Angebot auch zu erwarten ist.
Nun betrachten wir die Anzahl der Videospiele aufgelistet nach
Platform.
Hierbei stellt sich die Frage ob ältere Plattformen mehr
Spielereleases haben wovon auszugehen ist. Hierzu verwenden wir ein
einfaches Balkendiagramm welche eine gute erste übersicht bietet.
grouped <- vgsales %>%
group_by(Platform) %>%
summarize(Anzahl =n())
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "Anzahl"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Platform,Anzahl, .desc="true"),
y=~Anzahl,
name="Game Amount by Platform" ,colors = myPalette) %>%
layout(title="Game Amount by Platform",
xaxis = ax,
yaxis = ay
)
Dies lässt sich nicht generell bestätigen aber ein Trend ist
definitiv erkennbar.
Nun stellt sich die Frage welche Plattform die meisten Sales hat.
grouped <- vgsales %>%
group_by(Platform) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)
ax <- list(
title = "Platform"
)
ay <- list(
title = "Global Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Sales Amount by Platform" ,colors = myPalette) %>%
layout(title="Sales Amount by Platform",
xaxis = ax,
yaxis = ay
)
Wie sich herausstellt ist dies jedoch nicht die Platform welches die
meisten Gamereleases hat.
Nun analzsieren wir die unterschiede der Regionen.
Hierzu verwenden wir sowohl sorted bar plots sowie um einen besseren
Überblick über die Prozentualverteilung der Konsolen in den einzelnen
Regionen Pie charts.
Einzuwenden hierbei ist, dass die Regionen natürlich unterschiedlich
viele Einwohner haben.Ein vergleich der absoluten Saleswerte ist hierbei
natürlich nur wenig ausschlaggebend zeigt aber einen generellen
beliebtheitstrend der Konsolen auf.
Im genensatz zur EU, in der das japanische unternehmen Sony mit der
PS2 und PS3 die liste anführt, hat in den USA das Landeseigene
softwareunternehmen Microsoft mit der Xbox360 die Nase vorn. In Japan
hingegen ist wie zu erwarten der japanische hersteller Nintendo mit dem
DS der Markführer.
Um sich das Ganze etwas genauer anzuschauen betrachten wir die Anzahl
der Sales per Platform im Verlauf der Jahre.
Um eine überladung des Diagramms zu verhindern werden hier allerdings
nur Plattformen mit mindestens 60 mio in Sales im entsprechenden Jahr
berücksichtigt. Dies hat den Nachteil das einige z.T wichtige Daten
Fehlen, ein Weglassen ebenjenes Filters fürt aber zu kompletter
Unübersichtlichkeit.
grouped <- vgsales %>%
group_by(Year, Platform) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>% filter(gr_sum>60)%>%
as.data.frame()
grouped <- grouped %>%arrange(desc(gr_sum)) %>%
group_by(Year, Platform) %>%
slice(1:3)
filtered <- grouped %>% select(Year,Platform,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = "Sales per Platform (in mio)"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Platform ,colors = myPalette)%>%
layout(title="Sales per Platform from 1980-2016",
xaxis = ax,
yaxis = ay
)
Hier erkennen wir das Platform, wie zu erwarten, meist kurz nach
Release die größten Verkaufszahlen verzeichnen.
Nun stellt sich die Frage ob sich neben bestimmten Platformen auch
bestimmte Entwickler/Publisher häufen. Hierbei gehen wir davon aus das
vermutlich Nintendo und EA die Liste anführen. Hierzu verwenden wir
wiederum sorted Bar-Charts und kürzen die Namen um die Begriffe
“Entertainment”, “Interactive”, “Game”, “Games” und “Studios” da dies
die Namen nur unnötig verlängert und Filtern Publisher mit Geringen
Anzahl an Game Releases.
Publisher
Amount
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n()) %>%
filter(Anzahl>100) %>% filter(Publisher!="Unknown")
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "Anzahl"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Publisher,Anzahl, .desc="true"),
y=~Anzahl,
name="Game Amount by Publisher") %>%
layout(title="Game Amount by Publisher",
xaxis = ax,
yaxis = ay
)
Sales
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(Global_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "Global Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Sales Amount by Publisher"
,colors = myPalette) %>%
layout(title="Sales Amount by Publisher",
xaxis = ax,
yaxis = ay
)
Auffällig ist hier die diskrepanz zwischen Anzahl der Spielereleases
und Anzahl der Spieleverkäufe. Im gegensatz zu der Anzahl der Spiele
(bei dem Nintendo nur auf platz 6 Sitz) dominiert Nintendo im anzahl der
Sales.
Nun stellt sich wieder einmal die Frage ob sich dies in Bestimmten
teilen der Welt unterscheidet und hierzu verwenden wir wiederum die
SortedBar/Piechart kombo und die bereits genannten Filter
Publisher Ranking
Balkendiagramme
Europa
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(EU_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(EU_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "EU Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
y=~Global_Sales,
name="EU Sales Amount by Publisher"
,colors = myPalette) %>%
layout(title="EU Sales Amount by Publisher",
xaxis = ax,
yaxis = ay
)
Nord Amerika
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(NA_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(NA_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "NA Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
y=~Global_Sales,
name="NA Sales Amount by Publisher"
,colors = myPalette) %>%
layout(title="NA Sales Amount by Publisher",
xaxis = ax,
yaxis = ay
)
Japan
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(JP_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(JP_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "JP Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
y=~Global_Sales,
name="JP Sales Amount by Publisher"
,colors = myPalette) %>%
layout(title="JP Sales Amount by Publisher",
xaxis = ax,
yaxis = ay
)
Kreisdiagramme
Europa
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(EU_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(EU_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "EU Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Publisher,
name="EU Sales Amount by Publisher"
,colors = myPalette) %>%
layout(title="EU Sales Amount by Publisher",
xaxis = ax,
yaxis = ay
)
Nord-Amerika
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(NA_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(NA_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "NA Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Publisher,textinfo='label+percent',
name="NA Sales Amount by Publisher"
,colors = myPalette) %>%
layout(title="NA Sales Amount by Publisher",
xaxis = ax,
yaxis = ay
)
Japan
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(JP_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(JP_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "JP Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Publisher,
name="JP Sales Amount by Publisher"
,colors = myPalette) %>%
layout(title="JP Sales Amount by Publisher",
xaxis = ax,
yaxis = ay
)
Zwischen EU und US lassen sich hier kaum Unterschiede feststellen in
Japan hingegen ist eine verschiebung zu erkennen. Japanische Publisher
führen hierbei die Liste an und drängen andere große unternehmen von den
Top spots.
Nun schauen wir uns die Genreverteilung von Videospielen an. Hierzu
verwenden wir wiederum die Altbekannte sorted Bar/Pie-Chart kombo.
Genre Amount
Balken Diagramm
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(Anzahl =n())
grouped$Anzahl<-as_vector(grouped$Anzahl)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Genre <- as_factor(ordered$Genre)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Anzahl"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Genre,Anzahl, .desc="true"),
y=~Anzahl,
name="Amount by Genre"
,colors = myPalette) %>%
layout(title="Amount by Genre",
xaxis = ax,
yaxis = ay
)
Kreis Diagramm
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(Anzahl =n())
grouped$Anzahl<-as_vector(grouped$Anzahl)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Genre <- as_factor(ordered$Genre)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Anzahl"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Anzahl,labels=~Genre,
name="Amount by Genre"
,colors = myPalette) %>%
layout(title="Amount by Genre",
xaxis = ax,
yaxis = ay
)
Hierbei ist zu erkennen das Action und Sports ein Großteil (34%) der
Genres ausmachen. Die Frage ist jedoch wie sind die Verkäufe verteilt
und beeinflusst die anzahl der Games pro Genre irgendwie die
Verkaufszahlen?
Sales Amount
Balken Diagramm
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Sales by Genre"
,colors = myPalette) %>%
layout(title="Sales by Genre",
xaxis = ax,
yaxis = ay
)
Kreis Diagramm
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,
name="Sales by Genre"
,colors = myPalette) %>%
layout(title="Sales by Genre",
xaxis = ax,
yaxis = ay
)
Hierbei erkennen wir das es einige Unterschiede gibt Action und
sports machen jedoch weiterhin einen Grosteil des Markts aus.
Nun schauen wir uns die Unterscheide in den Regionen an.
SalesbyGenre
Balkendiagramme
Europa
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(EU_Sales)) %>%
rename(
Global_Sales = "sum(EU_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Sales by Genre (EU)"
,colors = myPalette) %>%
layout(title="Sales by Genre (EU)",
xaxis = ax,
yaxis = ay
)
Nord-Amerika
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(NA_Sales)) %>%
rename(
Global_Sales = "sum(NA_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Sales by Genre (NA)"
,colors = myPalette) %>%
layout(title="Sales by Genre (NA)",
xaxis = ax,
yaxis = ay
)
Japan
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(JP_Sales)) %>%
rename(
Global_Sales = "sum(JP_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Sales by Genre (JP)" ,colors = myPalette) %>%
layout(title="Sales by Genre (JP)",
xaxis = ax,
yaxis = ay
)
Kreisdiagramme
Europa
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(EU_Sales)) %>%
rename(
Global_Sales = "sum(EU_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,
name="Sales by Genre (EU)" ,colors = myPalette) %>%
layout(title="Sales by Genre (EU)",
xaxis = ax,
yaxis = ay
)
Nord-Amerika
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(NA_Sales)) %>%
rename(
Global_Sales = "sum(NA_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,
name="Sales by Genre (NA)",colors = myPalette) %>%
layout(title="Sales by Genre (NA)",
xaxis = ax,
yaxis = ay
)
Japan
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(JP_Sales)) %>%
rename(
Global_Sales = "sum(JP_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,
name="Sales by Genre (JP)" ,colors = myPalette) %>%
layout(title="Sales by Genre (JP)",
xaxis = ax,
yaxis = ay
)
Hierbei erkennen wir wieder einmal das US und EU recht ähnlich sind
wohingegen Japan ein gänzlich anderes Genreshema erkennen lässt. In
Japan dominiert Role-Playing welches sich in EU und US nur auf platz 7
befindet.
Nun schauen wir uns die Genreentwicklung über die Jahre an. Hierzu
verwenden wir LinePlots.
Genre Amount per Year
Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
title = "Year"
)
ay <- list(
title = "Anzahl"
)
filtered %>%
plot_ly() %>%
add_lines(x=~Year,
y=~Anzahl, color=~Genre,colors = myPalette)
Filled Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
title = "Year"
)
ay <- list(
title = "Anzahl"
)
filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette)%>%
layout(title="Amount by Genre from 1980-2016",
xaxis = ax,
yaxis = ay
)
Stacked Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
title = "Year"
)
ay <- list(
title = "Anzahl"
)
filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre, colors = myPalette)%>%
layout(title="Amount by Genre from 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Genreshift %
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
title = "Year"
)
ay <- list(
title = "Percent %"
)
filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre ,colors = myPalette)%>%
layout(title="Marketamount genreshift in % from 1980-2016",
xaxis = ax,
yaxis = ay
)
Hierbei zu erkennen ist Obwohl die Anzahl der Jährlichen
Spielereleases über die Jahre hinweg stetig wächst bleiben die Meisten
Genres ähnlich viel vertreten. Auffällig sind hierbei Strategy-Games die
erst 1991 das erste mal auftretem Seitdem obwohl sie Leicht an
Marketshare verlieren grob gleich bleiben. Außerdem sind Action Games
die Spiele mit der wohl größten volatilität. Sind es 1982 noch fast 50%
der Gamereleases fällt deren aufkommen 1084 schon auf nur noch knapp 10%
ab und 1986 steigt der Wert wieder auf fast 30%. Dieser Trend setzt sich
fort bis 1996 ab welchem Zeitpunkt sich Action Games von 3.6% über die
Jahre bis 2016 bis 35% entwickeln.
Schauen wir uns an wie sich die verkäufe entwickelt haben.
Sales Amount per Year
Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = "Global_Sales"
)
filtered %>%
plot_ly() %>%
add_lines(x=~Year,
y=~gr_sum, color=~Genre ,colors = myPalette) %>%
layout(title="Sales by Genre from 1980-2016",
xaxis = ax,
yaxis = ay
)
Filled Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = "Global_Sales"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette) %>%
layout(title="Sales by Genre from 1980-2016",
xaxis = ax,
yaxis = ay
)
Stacked Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = "Global_Sales"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre ,colors = myPalette)%>%
layout(title="Sales by Genre from 1980-2016",
xaxis = ax,
yaxis = ay
)
Genreshift %
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = "Percent %"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre ,colors = myPalette)%>%
layout(title="Marketshare genreshift in % from 1980-2016",
xaxis = ax,
yaxis = ay
)
Wie zu erwarten lässt sich hier ein Großer overlap zu den Anzahl der
Gamereleases feststellen.
Nun stellt sich die Frage hab sich die Verkäufe ähnlich der anzahl
der GameReleases entwickelt?
Sales per Game per Year
Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = "Sales per Game"
)
filtered %>%
plot_ly() %>%
add_lines(x=~Year,
y=~gr_sum, color=~Genre ,colors = myPalette) %>%
layout(title="Sales per Game by Genre from 1980-2016",
xaxis = ax,
yaxis = ay
)
Filled Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = "Sales per Game"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette) %>%
layout(title="Sales per Game by Genre from 1980-2016",
xaxis = ax,
yaxis = ay
)
Stacked Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = "Sales per Game"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre, colors = myPalette)%>%
layout(title="Sales per Game by Genre from 1980-2016",
xaxis = ax,
yaxis = ay
)
Genreshift %
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Year"
)
ay <- list(
title = "Percent %"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre, colors = myPalette)%>%
layout(title="Marketshare in Sales per Game by Genre from 1980-2016",
xaxis = ax,
yaxis = ay
)
Auch hier ist wie erwartet die Entwicklung Prozentual ähnlich sind.
Auffällig ist jedoch das Shooter trotz ihrer geringen Vertretung in der
Prozentualen Verteilung 1984 sowie 2014,2015 und 2016 die Nase Vorne
haben. Platform Games haben 1985,1988 und 1990 die Nase Vorne. Die
Hochzeit der Puzzle Games sind unangefochten 1988 mit dem
Weltweitbekannten und auf Platz 6 der meistverkauften videospiele:
Tetris. Ein genauerer vergleich der Ausschläge mit den dementsprechenden
Videospielen wäre hier wünschenswert würde aber das Ausmaß dieser Arbeit
sprengen.
Nun stellt sich die Frage wie es mit Genres pro publisher aussieht?
Gibt es hier Publisher die verschiedene Genres bevorzugen bzw. deren
Bestseller sich in bestimmten Genres Tummeln?
Hierzu verwenden wir ein stacked Bar-Plot. Dazu filtern wir die top
10 Publishern aka Publisher mit min 116 mio in Sales. Dies entfernt
natürlich einiges an Information allerdings geht sonst einiges an
Übersichtlichkeit verloren. Zusätzlich werden erneut die Worte
“Entertainment”, “Interactive”, “Game”, “Games” und “Studios”
entfernt.
Genre by Publisher
Sales
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
PublisherSales <- grouped %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
grouped$Publisher <-str_remove_all(grouped$Publisher, "Entertainment")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Interactive")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Studios")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Games")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Game")
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales"
)
grouped%>%
plot_ly(x=~Publisher,
y=~Global_Sales,
type='bar',
color=~Genre, colors = myPalette) %>%
layout(title="Sales by Genre By Publisher",
xaxis = ax,
yaxis = ay,
barmode = 'stack'
)
Amount
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(Anzahl =n(),sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
PublisherSales <- grouped %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
grouped$Publisher <-str_remove_all(grouped$Publisher, "Entertainment")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Interactive")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Studios")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Games")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Game")
ax <- list(
title = "Genre"
)
ay <- list(
title = "Amount"
)
grouped%>%
plot_ly(x=~Publisher,
y=~Anzahl,
type='bar',
color=~Genre ,colors = myPalette) %>%
layout(title="Amount by Genre By Publisher",
xaxis = ax,
yaxis = ay,
barmode = 'stack'
)
Bei dem vergleich der Werte ist hier zu bemerken, dass die meisten
Publisher Hierbei sich mit der Anzahl der Spiele und den Sales gut
abdecken. Die auffälligsten diskrepanzen sind hierbei EA mit dem Sports
Genre und ihren järlich releasten Spielen FiFa/NBA2k etc. sowie Nintendo
mit der Platformreihe Super Mario. Schauen wir uns diese Beiden Firmen
Noch einmal im Detail an.
Hierzu verwenden wir wieder die Bar/Pie chart Combo die uns Bereits
aus vorderen Teilen der Ausarbeitung bekannt sind.
Genre für Electronic Arts
Balkendiagramme
Sales
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>%
filter(Publisher == "Electronic Arts")
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales"
)
grouped%>%
plot_ly() %>% add_bars(x=~Genre,
y=~Global_Sales,
color=~Genre ,colors = myPalette) %>%
layout(title="Sales by Genre for Electronic Arts",
xaxis = ax,
yaxis = ay,
barmode = 'stack'
)
Amount
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(Anzahl =n()) %>%
filter(Publisher == "Electronic Arts")
ax <- list(
title = "Genre"
)
ay <- list(
title = "Amount"
)
grouped%>%
plot_ly() %>% add_bars(x=~Genre,
y=~Anzahl,
color=~Genre ,colors = myPalette) %>%
layout(title="Amount by Genre for Electronic Arts ",
xaxis = ax,
yaxis = ay,
barmode = 'stack'
)
Kreisdiagramme
Sales
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>%
filter(Publisher == "Electronic Arts")
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales"
)
grouped%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,textinfo='label+percent',sort = FALSE,
name="Sales by Genre for Electronic Arts" ,colors = myPalette) %>%
layout(title="Sales by Genre for Electronic Arts",
xaxis = ax,
yaxis = ay
)
Amount
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(Anzahl =n()) %>%
filter(Publisher == "Electronic Arts")
ax <- list(
title = "Genre"
)
ay <- list(
title = "Amount"
)
grouped%>%
plot_ly() %>%
add_pie(values =~Anzahl,labels=~Genre,textinfo='label+percent',sort = FALSE,
name="Amount by Genre for Electronic Arts" ,colors = myPalette) %>%
layout(title="Amount by Genre for Electronic Arts",
xaxis = ax,
yaxis = ay
)
Schauen wir uns EA hier im Detail an fällt allerdings auf das die
Diskrepanz zwischen Sales und Anzahl der Gamereleases für EA bei Sports
gar nicht so groß ist (41.5% vs 43.2%). Die größeren diskrepanzen sind
hier Shooter welches nur 10% der Gamereleases sind aber gut 15% der
Sales und Action mit 13.5% der Gamereleases und 10.4% der Sales.
Schauen wir uns nun Nintendo an.
Genre für Nintendo
Balkendiagramme
Sales
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>%
filter(Publisher == "Nintendo")
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales"
)
grouped%>%
plot_ly() %>% add_bars(x=~Genre,
y=~Global_Sales,
color=~Genre ,colors = myPalette) %>%
layout(title="Sales by Genre for Nintendo",
xaxis = ax,
yaxis = ay,
barmode = 'stack'
)
Amount
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(Anzahl =n()) %>%
filter(Publisher == "Nintendo")
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Amount"
)
grouped%>%
plot_ly() %>% add_bars(x=~Genre,
y=~Anzahl,
color=~Genre ,colors = myPalette) %>%
layout(title="Amount by Genre for Nintendo",
xaxis = ax,
yaxis = ay,
barmode = 'stack'
)
Kreisdiagramme
Sales
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>%
filter(Publisher == "Nintendo")
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Sales"
)
grouped%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,textinfo='label+percent',sort = FALSE,
name="Sales by Genre for Nintendo" ,colors = myPalette) %>%
layout(title="Sales by Genre for Nintendo",
xaxis = ax,
yaxis = ay
)
Amount
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(Anzahl =n()) %>%
filter(Publisher == "Nintendo")
ax <- list(
title = "Genre"
)
ay <- list(
title = "Amount"
)
grouped%>%
plot_ly() %>%
add_pie(values =~Anzahl,labels=~Genre,textinfo='label+percent',sort = FALSE,
name="Amount by Genre for Nintendo" ,colors = myPalette) %>%
layout(title="Amount by Genre for Nintendo",
xaxis = ax,
yaxis = ay
)
Bei Nintendo zu erkennen ist hier, dass Platform spiele ein
Kassenchlager sind. Nehmen diese nur 16% der spielereleases ein so
bringen sie dennoch 24% der Sales ein. Gleiches Gilt für Sport games. 8%
gegenüber 12%. Action (11% vs 7%), Misc (14% vs 10%) und Puzzle Games
(10.5% vs 7%) sind jedoch nicht so erfolgreich.
Ausblick in die Zukunft
Ein Vergleich der Ausschläge mit den dementsprechenden
Videospielen.
Eine genaue Analyse der Gamesales pro jahr (aka tetrist 1950 30 mal
testris 2015 300000 mal) geben die daten nicht her.
eine anylse der Coronapandemie veränderungen (geben die daten nicht
her)
---
title: "VDA Projekt"
output: 
   html_document : 
    code_folding: hide
   html_notebook : 
    code_folding: hide
   
---


```{r setup, include=TRUE, echo=TRUE, message=FALSE}
library(readr)
library(tidyverse)
library(forcats)
library(plotly)
library(knitr, warn.conflicts = FALSE, quietly=TRUE)
library(RColorBrewer)
library(stringr)
library(dygraphs)
library(xts)
myPalette <- brewer.pal(10, "Paired")
vgsales <- read_csv("vgsales.csv")
```
Das verwendete Dataset des Projekts: https://www.kaggle.com/datasets/gregorut/videogamesales

Dieses Dataset umfasst verschiedene Daten zu Videogamereleases und Sales zwischen 1980 und 2016.

Ideen/Statements:


Bestimmte Entwickler/Publisher häufen sich (Nintendo/EA)
Ältere Plattformen/spiele haben mehr verkäufe bzw Wie hat sich die Anzahl der verkäufe im laufe der jahre entwickelt?
Genrenentwicklung über die Jahre
Welche Spiele/Publisher/Genres in welchen Teilen der welt sich häufen (Nintendo in Asien, Shooter in US/EU)
Gibt es Statistische zusammenhänge zwischen einzelnen Faktoren e.g. Genre -> Sales
Welche Jahre sind die besten in der Anzahl der releasten games und hängt dies mit den Sales zusammen? (je mehr Total Sales desto mehr Games verkaufen sich)
Welche Jahre sind die besten in Anzahl Sales pro game (neuer = besser?)
Welche Plattform ist die beste und unterscheidet sich diese nach Region?
Gibt es Unterschiede in den Regionen/hängt das mit der Anzahl der Einwohner der Region zusammen? (Asia>US>EU)



Zuerst schauen wir und die Anzahl der Videospiele und die Anzahl der Verkäufe im laufe der Jahre an.

Hierzu verwenden wir Liniendiagramme. Außerdem filtern wir alle Datensätze in denen kein Jahr angegeben ist sowie Datensätze mit den Jahren 2017 und 2020 um Fehlerhafte Daten und unvollständige Daten aus der Liste zu entfernen.

## Game Releases over the Years {.tabset}
### Game Amount 
```{r plot(AmountByYear), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Anzahl)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Amount"

)

filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>% 
  layout(title="Game Amount from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```
### Game Sales
```{r plot(GameSalesByYear), include=TRUE, echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = " Game Sales per Year (in mio)"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>% 
  layout(title="Game Sales from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```
### Sales per Game
```{r plot(SalesbyGameByYear), include=TRUE, echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Sales per Game"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>% 
  layout(title="Sales per Game from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```
## {-}
Hier erkennen wir das 2008 und 2009 die Jahre waren in denen die Meisten Games Releast wurden und diese auch die meisten Verkäufe haben.
Den größten per Game Verkaufswert gab es allerdings 1984,1985 und 1989. Neuere spiele hingegen verkaufen sich durchschnittlich schlechter was durch das größere Angebot auch zu erwarten ist.

Nun betrachten wir die Anzahl der Videospiele aufgelistet nach Platform.
```{r noplot, echo = TRUE, message=FALSE, results='markup', include =FALSE,}
vgsales %>% 
  plot_ly(
    x=~Platform,
    stroke=I("black"),
    name="Amount by Platform") %>%
  layout(
    title="Amount by Platform")
vgsales %>% 
  plot_ly %>% 
  add_boxplot(
    x=~Platform,
    stroke=I("black"),
    name="Amount by Platform") %>% 
  layout(
    title="Amount by Platform")

vgsales %>% 
  plot_ly() %>% 
  add_bars(
    x=~Global_Sales,
    y=~Platform,
    name="Sales by Platform (in mio)") %>% 
  layout(
    title="Sales by Platform (in mio)")

```
Hierbei stellt sich die Frage ob ältere Plattformen mehr Spielereleases haben wovon auszugehen ist.
Hierzu verwenden wir ein einfaches Balkendiagramm welche eine gute erste übersicht bietet.
```{r plot, echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(Anzahl =n()) 

ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "Anzahl"
)
ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Anzahl, .desc="true"),
           y=~Anzahl,
           name="Game Amount by Platform" ,colors = myPalette) %>% 
  layout(title="Game Amount by Platform",
         xaxis = ax,
         yaxis = ay
         
         )
```
Dies lässt sich nicht generell bestätigen aber ein Trend ist definitiv erkennbar.


Nun stellt sich die Frage welche Plattform die meisten Sales hat.

```{r plot(PlatformRanking_Global), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "Global Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales Amount by Platform" ,colors = myPalette) %>% 
  layout(title="Sales Amount by Platform",
         xaxis = ax,
         yaxis = ay
         )
```
Wie sich herausstellt ist dies jedoch nicht die Platform welches die meisten Gamereleases hat.

Nun analzsieren wir die unterschiede der Regionen.

Hierzu verwenden wir sowohl sorted bar plots sowie um einen besseren Überblick über die Prozentualverteilung der Konsolen in den einzelnen Regionen Pie charts.

Einzuwenden hierbei ist, dass die Regionen natürlich unterschiedlich viele Einwohner haben.Ein vergleich der absoluten Saleswerte ist hierbei natürlich nur wenig ausschlaggebend zeigt aber einen generellen beliebtheitstrend der Konsolen auf.

## Platform Ranking {.tabset}

### Balkendiagramme {.tabset}
#### Europa
```{r plot(PlatformRanking_EU1), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "EU Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="EU Sales Amount by Platform" ,colors = myPalette) %>% 
  layout(title="EU Sales Amount by Platform",
         xaxis = ax,
         yaxis = ay
         )
```
#### Nord-Amerika
```{r plot(PlatformRanking_NA1), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "NA Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="NA Sales Amount by Platform" ,colors = myPalette) %>% 
  layout(title="NA Sales Amount by Platform",
         xaxis = ax,
         yaxis = ay
         )
```

#### Japan
```{r plot(PlatformRanking_JP1), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "JP Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="JP Sales Amount by Platform" ,colors = myPalette) %>% 
  layout(title="JP Sales Amount by Platform",
         xaxis = ax,
         yaxis = ay
         )
```
### kreisdiagramme {.tabset}

#### Europa
```{r plot(PlatformRanking_EU2), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "EU Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Platform,textinfo='label+percent',
           name="EU Sales Amount by Publisher" ,colors = myPalette) %>% 
  layout(title="EU Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )
```
#### Nord-Amerika
```{r plot(PlatformRanking_NA2), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "NA Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Platform,textinfo='label+percent',
           name="NA Sales Amount by Publisher" ,colors = myPalette) %>% 
  layout(title="NA Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

#### Japan
```{r plot(PlatformRanking_JP2), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "JP Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Platform,textinfo='label+percent',
           name="JP Sales Amount by Platform" ,colors = myPalette) %>% 
  layout(title="JP Sales Amount by Platform",
         xaxis = ax,
         yaxis = ay
         )
```


## {-}
Im genensatz zur EU, in der das japanische unternehmen Sony mit der PS2 und PS3 die liste anführt, hat in den USA das Landeseigene softwareunternehmen Microsoft mit der Xbox360 die Nase vorn. In Japan hingegen ist wie zu erwarten der japanische hersteller Nintendo mit dem DS der Markführer.

Um sich das Ganze etwas genauer anzuschauen betrachten wir die Anzahl der Sales per Platform im Verlauf der Jahre.

Um eine überladung des Diagramms zu verhindern werden hier allerdings nur Plattformen mit mindestens 60 mio in Sales im entsprechenden Jahr berücksichtigt. Dies hat den Nachteil das einige z.T wichtige Daten Fehlen, ein Weglassen ebenjenes Filters fürt aber zu kompletter Unübersichtlichkeit.
```{r plot(SalesPerPlatformbyYear), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Platform) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017')  %>% filter(gr_sum>60)%>%
  as.data.frame()
grouped <- grouped %>%arrange(desc(gr_sum)) %>% 
  group_by(Year, Platform) %>%
  slice(1:3)

filtered <- grouped %>% select(Year,Platform,gr_sum)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Sales per Platform (in mio)"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Platform ,colors = myPalette)%>% 
  layout(title="Sales per Platform from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```
Hier erkennen wir das Platform, wie zu erwarten, meist kurz nach Release die größten Verkaufszahlen verzeichnen.




Nun stellt sich die Frage ob sich neben bestimmten Platformen auch bestimmte Entwickler/Publisher häufen. Hierbei gehen wir davon aus das vermutlich Nintendo und EA die Liste anführen.
Hierzu verwenden wir wiederum sorted Bar-Charts und kürzen die Namen um die Begriffe "Entertainment", "Interactive", "Game", "Games" und "Studios" da dies die Namen nur unnötig verlängert und Filtern Publisher mit Geringen Anzahl an Game Releases.

## Publisher {.tabset}

### Amount
```{r plot2, echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n()) %>%  
  filter(Anzahl>100) %>% filter(Publisher!="Unknown")




PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)


ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "Anzahl"
)
ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Anzahl, .desc="true"),
           y=~Anzahl,
           name="Game Amount by Publisher"
           ,colors = myPalette) %>% 
  layout(title="Game Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         
         )
```
### Sales
```{r plot(PublisherRanking_Global), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(Global_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "Global Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales Amount by Publisher"
           ,colors = myPalette) %>% 
  layout(title="Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )
```
## {-}
Auffällig ist hier die diskrepanz zwischen Anzahl der Spielereleases und Anzahl der Spieleverkäufe. Im gegensatz zu der Anzahl der Spiele (bei dem Nintendo nur auf platz 6 Sitz) dominiert Nintendo im anzahl der Sales.


Nun stellt sich wieder einmal die Frage ob sich dies in Bestimmten teilen der Welt unterscheidet und hierzu verwenden wir wiederum die SortedBar/Piechart kombo und die bereits genannten Filter

## Publisher Ranking {.tabset}

### Balkendiagramme {.tabset}
#### Europa

```{r plot(PublisherRanking_EU1), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(EU_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)


grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "EU Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="EU Sales Amount by Publisher"
           ,colors = myPalette) %>% 
  layout(title="EU Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )
```
#### Nord Amerika
```{r plot(PublisherRanking_NA1), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(NA_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "NA Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="NA Sales Amount by Publisher"
           ,colors = myPalette) %>% 
  layout(title="NA Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )
```
#### Japan
```{r plot(PublisherRanking_JP1), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(JP_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "JP Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="JP Sales Amount by Publisher"
           ,colors = myPalette) %>% 
  layout(title="JP Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

### Kreisdiagramme {.tabset}

#### Europa

```{r plot(PublisherRanking_EU), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(EU_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "EU Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Publisher,
           name="EU Sales Amount by Publisher"
          ,colors = myPalette) %>% 
  layout(title="EU Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

#### Nord-Amerika

```{r plot(PublisherRanking_NA2), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(NA_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "NA Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Publisher,textinfo='label+percent',
           name="NA Sales Amount by Publisher"
          ,colors = myPalette) %>% 
  layout(title="NA Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

#### Japan

```{r plot(PublisherRanking_JP2), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(JP_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "JP Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Publisher,
           name="JP Sales Amount by Publisher"
          ,colors = myPalette) %>% 
  layout(title="JP Sales Amount by Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

## {-}

Zwischen EU und US lassen sich hier kaum Unterschiede feststellen in Japan hingegen ist eine verschiebung zu erkennen. Japanische Publisher führen hierbei die Liste an und drängen andere große unternehmen von den Top spots.

Nun schauen wir uns die Genreverteilung von Videospielen an. Hierzu verwenden wir wiederum die Altbekannte sorted Bar/Pie-Chart kombo.

## Genre Amount {.tabset}

### Balken Diagramm

```{r plot(GenreAmount_GLobal1), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(Anzahl =n())

grouped$Anzahl<-as_vector(grouped$Anzahl)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Genre <- as_factor(ordered$Genre)


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Anzahl, .desc="true"),
           y=~Anzahl,
           name="Amount by Genre"
           ,colors = myPalette) %>% 
  layout(title="Amount by Genre",
         xaxis = ax,
         yaxis = ay
         )

```

### Kreis Diagramm

```{r plot(GenreAmount_GLobal2), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(Anzahl =n())

grouped$Anzahl<-as_vector(grouped$Anzahl)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Genre <- as_factor(ordered$Genre)


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Anzahl,labels=~Genre,
           name="Amount by Genre"
          ,colors = myPalette) %>% 
  layout(title="Amount by Genre",
         xaxis = ax,
         yaxis = ay
         )
```

## {-}

Hierbei ist zu erkennen das Action und Sports ein Großteil (34%) der Genres ausmachen. Die Frage ist jedoch wie sind die Verkäufe verteilt und beeinflusst die anzahl der Games pro Genre irgendwie die Verkaufszahlen?

## Sales Amount {.tabset}

### Balken Diagramm

```{r plot(SalesByGenre_Global1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales by Genre"
           ,colors = myPalette) %>% 
  layout(title="Sales by Genre",
         xaxis = ax,
         yaxis = ay
         )

```

### Kreis Diagramm

```{r plot(SalesByGenre_Global2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Sales by Genre"
          ,colors = myPalette) %>% 
  layout(title="Sales by Genre",
         xaxis = ax,
         yaxis = ay
        )
```


## {-}

Hierbei erkennen wir das es einige Unterschiede gibt Action und sports machen jedoch weiterhin einen Grosteil des Markts aus.

Nun schauen wir uns die Unterscheide in den Regionen an.

## SalesbyGenre {.tabset}

### Balkendiagramme {.tabset}

#### Europa

```{r plot(SalesByGenre_EU1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales by Genre (EU)"
           ,colors = myPalette) %>% 
  layout(title="Sales by Genre (EU)",
         xaxis = ax,
         yaxis = ay
         )
```

#### Nord-Amerika
```{r plot(SalesByGenre_NA1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales by Genre (NA)"
           ,colors = myPalette) %>% 
  layout(title="Sales by Genre (NA)",
         xaxis = ax,
         yaxis = ay
         )
```

#### Japan

```{r plot(SalesByGenre_JP1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Sales by Genre (JP)" ,colors = myPalette) %>% 
  layout(title="Sales by Genre (JP)",
         xaxis = ax,
         yaxis = ay
         )

```


### Kreisdiagramme {.tabset}

#### Europa
```{r plot(SalesByGenre_EU2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Sales by Genre (EU)" ,colors = myPalette) %>% 
  layout(title="Sales by Genre (EU)",
         xaxis = ax,
         yaxis = ay
        )
```

#### Nord-Amerika

```{r plot(SalesByGenre_NA2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Sales by Genre (NA)",colors = myPalette) %>% 
  layout(title="Sales by Genre (NA)",
         xaxis = ax,
         yaxis = ay
        )
```

#### Japan

```{r plot(SalesByGenre_JP2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Sales by Genre (JP)" ,colors = myPalette) %>% 
  layout(title="Sales by Genre (JP)",
         xaxis = ax,
         yaxis = ay
        )
```

## {-}
Hierbei erkennen wir wieder einmal das US und EU recht ähnlich sind wohingegen Japan ein gänzlich anderes Genreshema erkennen lässt. In Japan dominiert Role-Playing welches sich in EU und US nur auf platz 7 befindet.

Nun schauen wir uns die Genreentwicklung über die Jahre an. Hierzu verwenden wir LinePlots.

## Genre Amount per Year {.tabset}

### Lines

```{r plot(AmountOfGamesByGenrebyYear1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Anzahl"

)

filtered %>%
plot_ly() %>% 
  add_lines(x=~Year,
           y=~Anzahl, color=~Genre,colors = myPalette)

```

### Filled Lines

```{r plot(AmountOfGamesByGenrebyYear2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Anzahl"

)


filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Amount by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

### Stacked Lines {.active}

```{r plot(AmountOfGamesByGenrebyYear3), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Anzahl"

)


filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre, colors = myPalette)%>% 
  layout(title="Amount by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

### Genreshift %

```{r plot(AmountOfGamesByGenrebyYear4), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Percent %"

)


filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Marketamount genreshift in % from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )
```

## {-}

Hierbei zu erkennen ist Obwohl die Anzahl der Jährlichen Spielereleases über die Jahre hinweg stetig wächst bleiben die Meisten Genres ähnlich viel vertreten. Auffällig sind hierbei Strategy-Games die erst 1991 das erste mal auftretem Seitdem obwohl sie Leicht an Marketshare verlieren grob gleich bleiben. Außerdem sind Action Games die Spiele mit der wohl größten volatilität. Sind es 1982 noch fast 50% der Gamereleases fällt deren aufkommen 1084 schon auf nur noch knapp 10% ab und 1986 steigt der Wert wieder auf fast 30%. Dieser Trend setzt sich fort bis 1996 ab welchem Zeitpunkt sich Action Games von 3.6% über die Jahre bis 2016 bis 35% entwickeln.

Schauen wir uns an wie sich die verkäufe entwickelt haben.

## Sales Amount per Year {.tabset}

### Lines
```{r plot(SalesByGenrebyYear1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Global_Sales"

)

filtered %>%
plot_ly() %>% 
  add_lines(x=~Year,
           y=~gr_sum, color=~Genre ,colors = myPalette) %>% 
  layout(title="Sales by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```
### Filled Lines

```{r plot(SalesByGenrebyYear2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Global_Sales"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette) %>% 
  layout(title="Sales by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

### Stacked Lines {.active}

```{r plot(SalesByGenrebyYear3), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Global_Sales"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Sales by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )
```

### Genreshift %

```{r plot(SalesByGenrebyYear4), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Year"
)

ay <- list(
  title = "Percent %"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Marketshare genreshift in % from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )
```

## {-}

Wie zu erwarten lässt sich hier ein Großer overlap zu den Anzahl der Gamereleases feststellen.

Nun stellt sich die Frage hab sich die Verkäufe ähnlich der anzahl der GameReleases entwickelt?

## Sales per Game per Year {.tabset}

### Lines
```{r plot(SalesPerGamePerGenrebyYear1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Sales per Game"

)

filtered %>%
plot_ly() %>% 
  add_lines(x=~Year,
           y=~gr_sum, color=~Genre ,colors = myPalette) %>% 
  layout(title="Sales per Game by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

### Filled Lines

```{r plot(SalesPerGamePerGenrebyYear2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Sales per Game"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette) %>% 
  layout(title="Sales per Game by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

### Stacked Lines {.active}

```{r plot(SalesPerGamePerGenrebyYear3),echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Sales per Game"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre, colors = myPalette)%>% 
  layout(title="Sales per Game by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )
```

### Genreshift %

```{r plot(SalesPerGamePerGenrebyYear4), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Year"
)

ay <- list(
  title = "Percent %"

)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre, colors = myPalette)%>% 
  layout(title="Marketshare in Sales per Game by Genre from 1980-2016",
         xaxis = ax,
         yaxis = ay
         )
```

## {-}
Auch hier ist wie erwartet die Entwicklung Prozentual ähnlich sind. Auffällig ist jedoch das Shooter trotz ihrer geringen Vertretung in der Prozentualen Verteilung 1984 sowie 2014,2015 und 2016 die Nase Vorne haben. Platform Games haben 1985,1988 und 1990 die Nase Vorne. Die Hochzeit der Puzzle Games sind unangefochten 1988 mit dem Weltweitbekannten und auf Platz 6 der meistverkauften videospiele: Tetris. Ein genauerer vergleich der Ausschläge mit den dementsprechenden Videospielen wäre hier wünschenswert würde aber das Ausmaß dieser Arbeit sprengen.


Nun stellt sich die Frage wie es mit Genres pro publisher aussieht? Gibt es hier Publisher die verschiedene Genres bevorzugen bzw. deren Bestseller sich in bestimmten Genres Tummeln?

Hierzu verwenden wir ein stacked Bar-Plot. Dazu filtern wir die top 10 Publishern aka Publisher mit min 116 mio in Sales. Dies entfernt natürlich einiges an Information allerdings geht sonst einiges an Übersichtlichkeit verloren. Zusätzlich werden erneut die Worte "Entertainment", "Interactive", "Game", "Games" und "Studios" entfernt.

## Genre by Publisher {.tabset}

### Sales

```{r plot(SalesGenrebyPublisher), echo = TRUE, message=FALSE, results='markup', }


grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) 

PublisherSales <- grouped %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)

grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)

grouped$Publisher <-str_remove_all(grouped$Publisher, "Entertainment")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Interactive")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Studios")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Games")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Game")

  

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

grouped%>%
  plot_ly(x=~Publisher,
           y=~Global_Sales,
            type='bar',
           color=~Genre, colors = myPalette)  %>% 
  layout(title="Sales by Genre By Publisher",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )


```

### Amount

```{r plot(AmountGenrebyPublisher), echo = TRUE, message=FALSE, results='markup', }



grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n(),sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )

PublisherSales <- grouped %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
grouped$Publisher <-str_remove_all(grouped$Publisher, "Entertainment")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Interactive")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Studios")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Games")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Game")



ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Amount"

)

grouped%>%
  plot_ly(x=~Publisher,
           y=~Anzahl,
            type='bar',
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Amount by Genre By Publisher",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )



```

## {-}

Bei dem vergleich der Werte ist hier zu bemerken, dass die meisten Publisher Hierbei sich mit der Anzahl der Spiele und den Sales gut abdecken. Die auffälligsten diskrepanzen sind hierbei EA mit dem Sports Genre und ihren järlich releasten Spielen FiFa/NBA2k etc. sowie Nintendo mit der Platformreihe Super Mario. Schauen wir uns diese Beiden Firmen Noch einmal im Detail an.

Hierzu verwenden wir wieder die Bar/Pie chart Combo die uns Bereits aus vorderen Teilen der Ausarbeitung bekannt sind.

## Genre für Electronic Arts {.tabset}

### Balkendiagramme {.tabset}

#### Sales 

```{r plot(GenrebyPublisherEA1), echo = TRUE, message=FALSE, results='markup', }


grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Electronic Arts")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Global_Sales,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Sales by Genre for Electronic Arts",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )

```
#### Amount

```{r plot(AmountGenrebyPublisherEA1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Electronic Arts")


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Amount"

)


grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Anzahl,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Amount by Genre for Electronic Arts ",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )

```
### Kreisdiagramme {.tabset}

#### Sales 

```{r plot(GenrebyPublisherEA2), echo = TRUE, message=FALSE, results='markup', }


grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Electronic Arts")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,textinfo='label+percent',sort = FALSE,
           name="Sales by Genre for Electronic Arts" ,colors = myPalette) %>% 
  layout(title="Sales by Genre for Electronic Arts",
         xaxis = ax,
         yaxis = ay
         )


```


#### Amount

```{r plot(AmountGenrebyPublisherEA2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Electronic Arts")


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Amount"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Anzahl,labels=~Genre,textinfo='label+percent',sort = FALSE,
           name="Amount by Genre for Electronic Arts" ,colors = myPalette) %>% 
  layout(title="Amount by Genre for Electronic Arts",
         xaxis = ax,
         yaxis = ay
         )

```
## {-}
Schauen wir uns EA hier im Detail an fällt allerdings auf das die Diskrepanz zwischen Sales und Anzahl der Gamereleases für EA bei Sports gar nicht so groß ist (41.5% vs 43.2%). Die größeren diskrepanzen sind hier Shooter welches nur 10% der Gamereleases sind aber gut 15% der Sales und Action mit 13.5% der Gamereleases und 10.4% der Sales.

Schauen wir uns nun Nintendo an.

## Genre für Nintendo {.tabset}

### Balkendiagramme {.tabset}

#### Sales

```{r plot(GenrebyPublisherNintendo1), echo = TRUE, message=FALSE, results='markup', }


grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Nintendo")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Global_Sales,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Sales by Genre for Nintendo",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )


```


#### Amount
```{r plot(AmountGenrebyPublisherNintendo1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Nintendo")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Amount"

)



grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Anzahl,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Amount by Genre for Nintendo",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )

```

### Kreisdiagramme {.tabset}

#### Sales

```{r plot(GenrebyPublisherNintendo2), echo = TRUE, message=FALSE, results='markup', }


grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Nintendo")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Sales"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,textinfo='label+percent',sort = FALSE,
           name="Sales by Genre for Nintendo" ,colors = myPalette) %>% 
  layout(title="Sales by Genre for Nintendo",
         xaxis = ax,
         yaxis = ay
         )


```

#### Amount

```{r plot(AmountGenrebyPublisherNintendo2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Nintendo")


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Amount"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Anzahl,labels=~Genre,textinfo='label+percent',sort = FALSE,
           name="Amount by Genre for Nintendo" ,colors = myPalette) %>% 
  layout(title="Amount by Genre for Nintendo",
         xaxis = ax,
         yaxis = ay
         )

```

## {-}

Bei Nintendo zu erkennen ist hier, dass Platform spiele ein Kassenchlager sind. Nehmen diese nur 16% der spielereleases ein so bringen sie dennoch 24% der Sales ein. Gleiches Gilt für Sport games. 8% gegenüber 12%. Action (11% vs 7%), Misc (14% vs 10%) und Puzzle Games (10.5% vs 7%) sind jedoch nicht so erfolgreich.


# Ausblick in die Zukunft

Ein Vergleich der Ausschläge mit den dementsprechenden Videospielen.

Eine genaue Analyse der Gamesales pro jahr (aka tetrist 1950 30 mal testris 2015 300000 mal) geben die daten nicht her.

eine anylse der Coronapandemie veränderungen (geben die daten nicht her)
